查看原文
其他

连载(5):统计图形艺术——点图

easyPlot图形小组 百步优解
2024-11-28



中国近代启蒙思想家、翻译家严复(1854-1921)提出,翻译力求信、达、雅。统计图形,亦须如此。信(faithfulness),指意义不悖原文,要准确传达数据原有之义,不偏离,不遗漏,也不要随意增减意思;达(expressiveness),指不拘泥于固有形式,译力求通顺、易懂、明白;雅(elegance),指选用的图形、样式要得体,力求简明、优雅。

生物医学研究产生的数据纷繁复杂,合适的统计图形能够准确、简明、优雅的勾勒出数据背后之意,消除医学-数据-内涵之间的障碍,准确传递生物医学研究成果,这就是医学统计图形的魅力。

历经半年准备,我们图形小组将按照数据可视化、统计可视化、集成可视化三个模块,连载推送医学研究中常用统计图形之背景、场景、拓展、要点。文稿有多处不足,请广大读者斧正。尚有多处示例待优化,欢迎提供素材。




05
克利夫兰点图Cleveland's Dot plot




图形溯源

美国计算机科学家William S. Cleveland于1984年发明了点图,简要阐述点图的设计要素,作为条形图或饼图的替代。心理学研究提示,人类感知数据点在标尺上的位置,比感知条形长度更为直观。Cleveland在其著作《Elements of Graphing Data》中用点图描述了世界21种语种的使用人数(图 5.1),直观易懂 [1],其1984年发表于The American Statistician的论文亦有描述 [2]。美国耶鲁大学统计学和政治学教授Edward Tufte,作为信息设计的先驱者,撰写过《视觉解释》、《美丽的证据》等一系列书籍,亦推崇点图。

图5.11931和1932年美国南加州

多地大麦产量比较






应用场景
  1. 用于展示多个指标的统计量(如:均数,率,重要性评分,变异度,等),以体现不同指标的大小关系。

  2. 用于展示多个指标在有限组别(例如2-3组)的统计量,以体现各指标在组间大小关系。





应用示例


01常规点图Regular Dot Plot





例: 以出生队列元素组学研究为例,该研究中分析了56个元素和儿童3岁左右Bayley Scale量表得分的关联性。


为了展示方便,下图列举部分元素和儿童认知得分(cognitive score)之线性回归的回归系数(图 5.2)。模型校正了母亲怀孕年龄、BMI、学历等协变量。





图5.2:56个元素和儿童认知得分

的关联性









02棒棒糖图Lollipop Plot





例:续上例



在常规点图基础上取消标尺(点图中的虚线),改为从基线到顶点的实线,形似棒棒糖,因而得名(图 5.3)。其长度可体现值之大小(类似于条形图的功能)。


其长度可体现值之大小(类似于条形图的功能)。


可选某一值作为参照,兵分两侧,点的颜色可根据数值而设。与线图类中的针板图或落线图有类似。






图5.3:56个元素和儿童认知得分

的关联性









03棒棒糖图叠加交互效应Lollipop Plot with Interaction Effect





例:续上例。(Environment International 上即将见刊


在棒棒糖图中添加弧线将具有交互效应的元素相连,可同时展示元素的回归系数大小以及哪些元素之间存在交互作用(图 5.4)


红色点表示脐带血血清元素暴露水平与贝利婴幼儿发展量表第三版(BSID-III)综合评分正向关联;蓝色点表示红色点表示脐带血血清元素暴露水平与BSID-III综合评分负向关联。


橙色曲线表示元素交互作用对;纵坐标表示关联系数大小。






图5.4:基于Stability LASSO的

儿童运动功能相关联元素的筛选结果

(连线者表示存在交互作用)









04哑铃图Dunbbell Plot






在同一组中若有两个数值,可将两点画于同一参考线上(如下图中的同一行),并以实现相连,即为哑铃图。


如本例中,每个元素与认知得分的单因素(绿点)和校正协变量后(红点)的回归系数画于一副图中,以横线相连,体现校正前后回归系数的变化(图 5.5)。






图5.5:56个元素和儿童认知得分

的关联性

(协变量校正前后哑铃图)










05分组点图Stratified Dot Plot






若多个指标具有分类(分层)属性,则可按照分层因素来绘制点图,将同一类的指标聚集到一起,不同分层的变量用不同的颜色来标示。


例1:本例用点图展示不同品牌汽车的燃油效率(每加仑的公里数),按照发动机缸数作为分层因素(图 5.6)。






图5.6:不同品牌汽车的燃油效率



例2: 本例展示2018年中国15个省份年均PM2.5和PM10浓度的分组点图(图 5.7)。



我国环境空气质量标准中,PM2.5和PM10年平均标准分别为35、70微克/立方米。


由图中可观察到越有一半的省份PM2.5超过标准;相比可观察到海南省的空气质量最佳。





图5.7:2018年中国部分省份

年均PM2.5和PM10浓度










06曼哈顿图Manhattan Plot






曼哈顿图是GWAS(全基因组关联分析)结果展示的一种方式,其本质是点图,形似夜晚站在纽约查尔斯河对岸观看的曼哈顿岛高楼林立,因而得名。将在“组学数据可视化”专题中,再详述。


曼哈顿图中每个点代表一个SNP,纵轴为每个SNP计算出来的取-log10后的P值,横轴即为SNP所在的染色体通常用不同的颜色表示。


基因位点的P值越小即-log10转化后越大,其与表型形状或疾病的关联程度越高。


本例引用一篇关于注意缺陷与多动障碍(Attention deficit and hyperactivity disorder,ADHD)的GWAS研究 [3],用曼哈顿图展示GWAS分析的结果(图 5.8),其中12个全基因组中关联程度较高的位点用黄色菱形展示。






图5.8:注意力缺陷与多动障碍

的全基因组关联研究结果















注意事项:
  1. 克利夫兰点图的Y轴一般为分类变量(不同指标,或不同组别)。
  2. 数值差异巨大的,会因个别异常值导致其他点压缩至底部而无法区分,可对数值进行尺度变换。
  3. 克利夫兰点图和棒棒糖图、针板图、落线图原理相同,只是用不同的可视化手段将观众的注意力吸引到不同的信息元素上。



以上为克利夫兰点图在医学研究中的常用场景示例,尚有更多扩展。篇幅有限,欢迎联系获取源码。
参考文献:
  1. Cleveland WS. The elements of graphing data. Wadsworth Publ. Co.; 1985.

  2. Cleveland WS, Mcgill R. Graphical perception: Theory, experimentation, and application to the development of graphical methods - journal of the american statistical association - volume 79, issue 387.

  3. Demontis D, Walters RK, Martin J, Mattheisen M, Als TD, Agerbo E, et al. Discovery of the first genome-wide significant risk loci for attention deficit/hyperactivity disorder. Nature genetics. 2019;51(1):63–75.






写作:魏永越*,张隆垚

排版:李   颖

审阅:陈   峰


关注公众号,联系获取源码


欢迎供稿 | 敬请斧正

easyPlot小组 (easyplot@126.com)

责任作者 (weiyongyue@126.com)


Powered by 



END


往期回顾BREAK AWAY

连载(1):统计图形艺术——条形图


连载(2):统计图形艺术——线图
连载(3):统计图形艺术——饼图
连载(4):统计图形艺术——直方图




修改于
继续滑动看下一个
百步优解
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存